iT邦幫忙

2023 iThome 鐵人賽

DAY 7
0
AI & Data

AI與語音辨識系列 第 7

DAY7 語音辨識的基礎,來了解語音訊號part1

  • 分享至 

  • xImage
  •  

早安嗨囉!


今天來聊聊語音辨識的語音訊號,語音到底是怎麼在人體身上產生的,當我們了解人類的發音,就可以為編寫模組找到更好的方向喔!

語音產生的機制

人類發聲會使用到的器官有肺、氣管、喉、聲帶、舌頭及嘴唇等,他們互相合作,並串連彼此,可以參考下圖:
https://ithelp.ithome.com.tw/upload/images/20230922/20161780iEPm8sTLng.jpg

人類的發音過程是一個極其複雜的生理過程,它使我們能夠表達語言、溝通和交流。這個過程從我們的肺部開始,當我們說話時,我們通過呼吸將空氣送入肺部,然後通過肺部肌肉的收縮,將空氣排出。接著,聲帶在喉嚨的頂部起到關鍵作用,它們開合並產生聲音振動,這些振動形成聲音的基礎。當振動的聲音通過口腔時,人們會利用舌頭、嘴巴、唇部等口腔結構來調整聲音,形成不同的音調和音素。在某些音素中,鼻腔也參與發音,通過調整通風來影響音質。在語音分析中,聲帶的震動週期是很重要的參數,它被稱為基音(pitch)週期,而其對應的頻率就是基頻,他們決定了聲音的高低。

聲道是一個聲學諧振腔,聲帶的震動會在聲道內產生共鳴,根據聲道的形狀跟面積不同,會使最後的訊號產生不同的增益,從而決定發出的音最後長怎樣。透過聲帶震動和聲道調變所發出的音,叫做濁音,通常會對應我們所稱的母音,而聲道也可以產生其他的音,就是利用舌頭和聲道互動,形成氣流和腔壁摩擦產生的音,或者氣流突然被釋放,產生像爆破的音,在語言學中稱作摩擦音及摩擦音,這些通常會運用在清音上,在語言辨識的演算法上,得為清音及濁音訊號特徵上的差異加以分辨。

總而言之,語音訊號可以轉變成頻譜及各式樣表來供模型學習,這部分很偏生物知識及理論,這邊只有大概講解聲學訊號,明天就會講解到模型的部分,請好好期待喔!


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY6 入門認識語音辨識part5(入門最後一篇)
下一篇
DAY8 語音辨識的基礎,來了解語音訊號part2
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言